Telegram Group & Telegram Channel
Авито открыл AI‑кухню на Data Fest 2025

Компания поделилась секретами работы над искусственным интеллектом.

Особенно заинтересовал их подход к обучению собственной языковой модели. Их секрет ー собственный токенизатор, который эффективнее других моделей обрабатывает русскоязычные тексты на 29%. Это, кстати, дает генерацию текста в два раза быстрее зарубежных LLM на русском языке. Для обучения использовались и открытые датасеты, и обезличенные данные Авито и даже олимпиадные задачи.

Также в компании активно разрабатывают мультимодальную VLM A‑Vision с технологией автоматического распознавания символов в изображениях. В обучении использовали 200 тысячах реальных фото и миллион пар вопрос-ответ. При этом использовали большие языковые модели как «учителей» для автоматической генерации разметки.

А еще Авито упаковал весь ML‑цикл на единой ML‑платформе. Теперь все фичи, разметки, инференсы и обучение в одном месте. Как рассказали в Авито, главная цель платформы ー реализация no-code интерфейса, позволяющий запускать модели без программирования.

Кстати, над моделями 7B в Авито работают в том числе и стажеры, которые используют свежие научные данные и современные стеки, такие как LLM, LoRA, vLLM. Например, один стажерский проект по анализу звонков с помощью большой языковой модели сократил расходы на автоматическую проверку в 10 раз.



tg-me.com/sqlhub/1910
Create:
Last Update:

Авито открыл AI‑кухню на Data Fest 2025

Компания поделилась секретами работы над искусственным интеллектом.

Особенно заинтересовал их подход к обучению собственной языковой модели. Их секрет ー собственный токенизатор, который эффективнее других моделей обрабатывает русскоязычные тексты на 29%. Это, кстати, дает генерацию текста в два раза быстрее зарубежных LLM на русском языке. Для обучения использовались и открытые датасеты, и обезличенные данные Авито и даже олимпиадные задачи.

Также в компании активно разрабатывают мультимодальную VLM A‑Vision с технологией автоматического распознавания символов в изображениях. В обучении использовали 200 тысячах реальных фото и миллион пар вопрос-ответ. При этом использовали большие языковые модели как «учителей» для автоматической генерации разметки.

А еще Авито упаковал весь ML‑цикл на единой ML‑платформе. Теперь все фичи, разметки, инференсы и обучение в одном месте. Как рассказали в Авито, главная цель платформы ー реализация no-code интерфейса, позволяющий запускать модели без программирования.

Кстати, над моделями 7B в Авито работают в том числе и стажеры, которые используют свежие научные данные и современные стеки, такие как LLM, LoRA, vLLM. Например, один стажерский проект по анализу звонков с помощью большой языковой модели сократил расходы на автоматическую проверку в 10 раз.

BY Data Science. SQL hub




Share with your friend now:
tg-me.com/sqlhub/1910

View MORE
Open in Telegram


Data Science SQL hub Telegram | DID YOU KNOW?

Date: |

Spiking bond yields driving sharp losses in tech stocks

A spike in interest rates since the start of the year has accelerated a rotation out of high-growth technology stocks and into value stocks poised to benefit from a reopening of the economy. The Nasdaq has fallen more than 10% over the past month as the Dow has soared to record highs, with a spike in the 10-year US Treasury yield acting as the main catalyst. It recently surged to a cycle high of more than 1.60% after starting the year below 1%. But according to Jim Paulsen, the Leuthold Group's chief investment strategist, rising interest rates do not represent a long-term threat to the stock market. Paulsen expects the 10-year yield to cross 2% by the end of the year. A spike in interest rates and its impact on the stock market depends on the economic backdrop, according to Paulsen. Rising interest rates amid a strengthening economy "may prove no challenge at all for stocks," Paulsen said.

That growth environment will include rising inflation and interest rates. Those upward shifts naturally accompany healthy growth periods as the demand for resources, products and services rise. Importantly, the Federal Reserve has laid out the rationale for not interfering with that natural growth transition.It's not exactly a fad, but there is a widespread willingness to pay up for a growth story. Classic fundamental analysis takes a back seat. Even negative earnings are ignored. In fact, positive earnings seem to be a limiting measure, producing the question, "Is that all you've got?" The preference is a vision of untold riches when the exciting story plays out as expected.

Data Science SQL hub from fr


Telegram Data Science. SQL hub
FROM USA